Partamos del concepto que dice que los datos sintéticos son datos artificiales creados por ordenadores, que los recopila de situaciones del mundo real. Son anónimos, y se crean con parámetros de cada usuario para que estos se asemejen al mundo real.
Para muchos expertos, los datos sintéticos son la clave para hacer que el aprendizaje automático de la Inteligencia Artificial sea más rápido y que se adopten algoritmos de la IA en nuestro día a día. En este sentido, se pueden crear datos sintéticos con los datos reales pero sin utilizar nombres, correos electrónicos, números de seguridad social o direcciones de esos datos. Minimizar el tiempo, el coste y el riesgo de las operaciones son tan solo algunas utilidades que poseen estos datos sintéticos.
Al mismo tiempo, tienen un gran potencial para las máquinas de aprendizaje profundo y los algoritmos de IA. Sin embargo, este tipo de datos pueden tener como desventaja lo difícil que resulta crear datos de gran calidad. Si estos datos no son muy parecidos a los reales, se perderá calidad. Como son réplicas de propiedades específicas de un conjunto de datos reales, algunos comportamientos aleatorios pueden pasar desapercibidos.
En conclusión, podemos decir que los datos sintéticos son una importante herramienta, sobre todo para la Inteligencia Artificial, que aumenta los algoritmos de aprendizaje automático cuando los datos reales son muy costosos o difíciles de conseguir.